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动 、 静 态 视觉 信息 在 真实 世界 视觉 搜索 中 的 作用 
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摘 要 真实 环境 中 的 视觉 搜索 是 人 和 动物 赖 以 生存 的 重要 能 力 。 目 前 的 视觉 搜索 研究 多 使 用 静态 的 观察 者 
和 静止 的 二 维 搜索 对 象 ， 侧 重 于 探究 注意 在 搜索 中 的 作用 ; 现 有 的 视觉 搜索 理论 模型 主要 概括 了 影响 搜索 的 
自 上 而 下 的 注意 因素 , 而 将 自 下 而 上 影响 因素 简单 归结 为 影像 显著 性 ， 然 而 在 真实 环境 中 ,观察 者 或 搜索 对 
象 是 可 以 运动 的 ， 搜索 时 可 利用 的 视觉 信息 包括 动态 光 流 和 静态 影像 结构 信息 。 已 有 的 视觉 识别 研究 发 现 这 
两 种 信息 相 结合 可 以 使 观察 者 准确 持久 地 识别 场景 、 事 件 和 三 维 结构 。 在 现 有 视觉 搜索 理论 模型 中 引入 两 种 
视觉 信息 可 以 较 好 还 原 真 实 环境 中 的 搜索 任务 。 我 们 提出 研究 构想 和 实验 方案 ， 探 究 利 用 动 、 静 态 视 觉 信息 
的 视觉 搜索 过 程 ， 从 而 完善 现 有 的 视觉 搜索 模型 .我们 认为 充分 利用 环境 信息 可 以 提高 搜索 效率 ， 且 在 视觉 搜 
索 训 练 和 智能 搜索 设计 等 方面 有 重要 的 应 用 价值 . 

关键 词 ” 视 觉 搜索 ， 光 流 ; 生物 运动 ; 生态 知觉 理论 
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1 引言 息 都 过 于 简单 。 近 年 来 , 研究 者 通过 使 用 真实 物 
体 的 静态 图 片 作为 搜索 对 象 (或 呈现 在 单一 颜色 
背景 中 , 或 租 于 静态 场景 中 ) 增 加 视觉 搜索 实验 范 
式 的 生态 效 度 。 这 些 研究 发 现场 景 结构 /要 义 
(Torralba, Oliva, Castelhano, & Henderson, 2006; 
Henderson & Hayes, 2017) /#2 (Ort, Fahrenfort, 
& Olivers, 2017; Wolfe, Cain, & Aizenman, 2019), 

目标 频率 (Wolfe & Wert, 2010; Wolfe, Boettcher, 
Josephs, Cunningham, & Drew, 2015) 以 及 目标 价 
值 (Hickey, Chelazzi, Theeuwes, & Geng, 2014; 


1.1 研究 背景 

视觉 搜索 (visual search) 指 通过 观察 、 利 用 视 
觉 信息 从 众多 事物 中 找到 某 一 目标 。 这 是 人 和 动 
物 赖 以 生存 的 关键 能 力 之 一 。 对 于 视觉 搜索 过 程 
及 其 认 知 机 制 的 研究 有 助 于 人 们 发 现 影响 搜索 效 
率 的 因素 ， 从 而 有 针对 性 地 制定 视觉 搜索 训练 计 
划 ， 提 高 搜索 准确 性 和 搜索 速度 。 在 经 典 的 视觉 
搜索 实验 中 ,一 个 搜索 目标 和 几 个 干扰 子 随机 且 


独立 地 呈现 在 电脑 屏幕 上 (Treisman & Gelade, iene 
; be BR TAES a gL 
1980; Koch & Ullman, 1987; Duncan & Humphreys, Ehinger & Wolfe, 2010) 竺 因素 都 会 影响 视觉 搜索 。 


1989; Wolfe & Gancarz, 1997), 目标 和 干扰 子 之 然而 ， 真实 世界 里 的 视觉 搜索 远 比 实验 室 任 
间 在 一 个 或 几 个 维度 上 有 所 区 分 ， 如 在 多 个 字母 务 复 杂 。 具 体 来 说 ， 传 统 视觉 搜索 实验 范式 中 的 


S 中 找 出 字符 $， 或 者 在 众多 不 同 颜色 的 几何 形状 观察 者 、 搜 索 对 象 和 搜索 环境 多 是 静止 的 ， 现 实 


中 找 出 红色 圆圈 。 与 真实 世界 视觉 搜索 任务 相 比 ， 。 中 它们 是 可 以 移动 的 。 其 次 ， 实 验 室 任 务 中 通常 


这 类 实验 室 任务 中 的 搜索 目标 、 干 扰 子 和 背景 信 ”” 使 用 简单 抽象 的 二 维 图 片 作 为 目标 物 和 干扰 子 。 
而 现实 中 的 搜索 对 象 是 三 维 的 ,它们 更 加 复杂 、 
可 能 有 数 不 尽 的 特征 组 合 。 更 重要 的 是 , 真实 场 
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索 环 境 , 研究 者 依然 将 丰富 的 三 维 动 、 静 态 信 息 
简化 成 物体 的 二 维 投影 以 简单 影像 作为 搜索 过 
程 的 起 点 ， 致 使 至 少 一 半 的 视觉 信息 (动态 信息 ) 
没有 被 纳入 现 有 的 视觉 搜索 模型 。 

因此 , 很 多 研究 者 对 实验 室 任务 的 效 度 提出 
质疑 , 认为 基于 实验 室 任务 得 出 的 结论 无 法 完全 
解释 真实 世界 中 的 行为 表现 (Broadbent，1991; 
Kingstone, Smilek, & Eastwood, 2008), 甚至 可 能 
起 到 反作用 ,将 研究 带 入 错误 的 方向 (Kingstone， 
Smilek, Ristic, Friesen, & Eastwood, 2003)。Kingston 
和 同事 (Kingston et al, 2003) 明 确 提 出 视觉 搜索 人 研 
究 必 须 开 拓 新 方向 ,必须 将 观察 者 、 观 察 对 象 、 
搜索 任务 和 环境 结合 ,尤其 是 要 考虑 观察 者 的 状 
态 和 自然 环境 特征 ， 从 具 身 的 角度 研究 视觉 搜 
索 , 这 与 Gibson 生态 知觉 理论 的 核心 思想 (Gibson， 
1958; Gibson, 1979/1986) 不 谋 而 合 。 

视觉 搜索 过 程 涉及 到 知觉 (Treisman，1982; 
Theeuwes, Kramer, & Belopolsky，2004) 、 注 意 
(Kristjánsson, Johannesson, & Thornton, 2014; Wolfe 
& Horowitz, 2017)、 工 作 记 忆 (Drew, Boettcher, & 
Wolfe, 2016; Drew, Boettcher, & Wolfe, 2017)、 长 
时 记忆 (Woodman & Chun, 2006; V6 & Wolfe, 
2015) 等 认 知 活动 。 这些 认 知 活动 并 非 相 互 独立 地 
存在 于 视觉 搜索 的 过 程 中 ,而 是 互相 交织 渗透 
形成 了 一 个 延续 的 过 程 。 然 而 ,大 部 分 视觉 搜索 
的 研究 中 ， 对 搜索 过 程 和 机 制 的 讨论 都 侧重 注意 
的 引导 、 分 配 或 捕 所。 相 较 之 下 ， 虽 然 知觉 贯穿 
了 搜索 过 程 中 早期 的 特征 注册 阶段 (Treisman， 
Sykes, & Gelade, 1977; Treisman & Gormican, 
1988; Wolfe, & Gray, 2007)、 中 期 的 目标 噪声 分 离 
阶段 (Eriksen & Schultz，1979) 和 后 期 的 序列 识别 
阶段 (Treisman & Gormican, 1988; Wolfe, Cave, & 
Franzel, 1989; Wolfe, & Gray, 2007)， 对 搜索 起 到 
重要 作用 , 但 对 搜索 过 程 中 知觉 信息 处 理 的 研究 
却 非常 少 。Nakayama 和 Martini (2011) 提 出 ， 知 觉 
研究 尤其 是 物体 识别 可 以 帮助 我 们 理解 视觉 搜 
索 。 他 们 认为 物体 识别 和 视觉 搜索 本 质 上 都 是 模 
式 识 别 (pattern recognition)。 物体 识别 需要 利用 很 
多 维度 上 的 特征 给 一 个 物体 分 类 ; 视觉 搜索 任务 
则 利用 少数 维度 上 的 特征 区 分 多 个 物体 。 两 种 任 
务 本 质 上 是 相同 的 , 它们 只 是 维度 数量 和 物体 数 
量 的 权衡 (trade-off)。 由 此 可 见 , 识别 和 搜索 是 一 
个 连续 的 两 个 极端 ， 它们 之 间 联 系 紧密 ， 因 此 帮 


助 物体 识别 的 信息 也 可 以 帮助 视觉 搜索 。 基 于 此 
本 研究 将 从 生态 知觉 视角 出 发 ， 提 出 实验 构想 
探究 动 、 静 态 视 觉 信 息 对 搜索 的 影响 ,对 现 有 的 
视觉 搜索 模型 进行 补充 、 完 善 。 

1.2 ”研究 意义 

在 理论 层面 ， 本 研究 打破 固有 思维 模式 ,将 
搜索 还 原 到 最 真实 的 场景 ,提出 观察 者 和 观察 对 
象 的 状态 会 影响 搜索 行为 ， 而 这 种 影响 是 基于 信 
息 的 : 观察 者 和 观察 对 象 的 状态 不 同 , 产生 的 视 
觉 信息 不 同 ; 视觉 信息 不 同 , 则 搜索 行为 不 同 。 和 
其 它 知觉 任务 一 样 ， 视 觉 搜 索 是 一 个 主动 的 、 动 
态 的 、 具 身 的 过 程 ,涉及 搜索 对 象 、 环 境 背 景 、 
观察 者 自身 等 众多 方面 。 本 研究 旨 在 完善 视觉 搜 
索 理 论 体 系 ， 找 出 真实 世界 里 静止 或 运动 的 观察 
者 如 何 利用 光 流 和 影像 结构 信息 搜索 物体 或 事件 ， 
并 通过 训练 提高 观察 者 提取 、 整 合 、 利 用 视觉 信 
息 的 能 力 ， 从 而 提升 搜索 效率 。 

在 应 用 方面 人 生活 在 三 维 环境 中 ,环境 是 
不 断 变化 的 ， 人 也 是 在 运动 中 的 。 观 察 者 如 何在 
运动 的 状态 下 寻找 目标 ， 如 何 从 一 群 运动 的 人 中 
找 出 一 个 运动 的 目标 , 这 些 是 重要 的 认 知 任务 ， 
在 真实 的 、 动 态 的 环境 中 有 广泛 应 用 。 例 如 , 在 
公共 安全 方面 ,警察 需要 从 视频 监控 中 快速 找到 
目标 , 急救 人 员 需 要 在 人 员 密 集 且 流动 的 地 方 迅 
速 找到 需要 帮助 的 人 ， 这 些 都 需要 利用 动 、 静 态 
视觉 信息 进行 搜索 。 现 有 搜索 理论 主要 是 基于 着 
态 影像 信息 ,流程 大 概 是 先 “ 记 住 ” 一 个 目标 图 像 ， 
然后 从 很 多 图 像 中 找 出 目标 。 但 是 当 人 在 环境 中 
运动 时 ,情况 很 复杂 ， 面孔、 外 形 等 作为 识别 依据 
的 图 像 经 常会 被 遮挡 ， 也 很 容易 被 修饰 。 仅 基于 
影像 的 视觉 搜索 不 是 最 有 效 的 ， 容易 出 现 漏 报 
(miss) 或 者 虚报 (false alarm)。 倘 若 在 搜索 过 程 中 可 
以 得 到 并 利用 影像 和 运动 信息 ， 可 能 搜索 效率 会 
更 高 。 因 为 运动 形态 取决 于 物理 特征 (如 质量 、 长 
度 、 摩 擦 系数 等 ,每 个 人 体型 不 一 样 , 走路 的 姿态 
也 不 一 样 )， 并 且 运 动 形态 很 难 被 改变 。 所 以 影像 
结构 信息 和 运动 产生 的 光 流 信息 在 视觉 搜索 中 都 
很 重要 。 在 本 研究 中 , 我 们 验证 观察 者 能 否 使 用 
运动 产生 的 视觉 信息 进行 搜索 ， 并 完善 基于 动 、 
静态 视觉 信息 进行 搜索 的 认 知 模型 。 

本 研究 结果 的 应 用 价值 总 结 为 : (1) 做 出 有 和 针 
对 性 的 训练 方案 ， 着 重 训练 对 有 效 视觉 信息 的 提 
取 及 整合 ， 提 高 搜索 准确 率 ， 降 低 搜索 时 间 ; (2) 
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将 人 类 行为 学 研究 结果 和 机 器 学 习 相 结 合 , 使 自 
动 化 搜索 高 效 低 耗 。 现 有 的 智能 搜索 算法 主要 基 
于 影像 信息 ， 原 则 上 讲 影 像 越 高 清 、 帧 数 越 多 ， 搜 
索 越 准确 。 这 样 的 搜索 计算 负荷 大 ， 对 处 理 器 、 
散热 装置 和 电池 的 要 求 很 高 ， 不 适用 于 小 型 便携 
设备 。 但 是 对 交流 的 处 理 只 需要 低频 空间 信和 号 ， 
对 清晰 度 没有 很 高 要 求 。 所 以 相 比 传统 算法 ， 基 
于 光 流 的 搜索 具有 运算 速度 快 、 计 算 负 荷 低 , 发 
热 少 、 能 耗 低 等 优点 ， 非 常 适 用 于 便携 式 搜索 装 
置 或 无 人 机 搜索 。 本 研究 突破 固有 思维 案 白 , 将 


象 的 复杂 程度 (如 使 用 真实 物体 图 片 或 场景 照片 ) 
来 提高 实验 室 任 务 的 生态 性 。Wolfe 的 引导 搜索 模 
型 也 不 断 地 得 到 扩展 (Wolfe 本 人 也 不 断 对 引导 性 
搜索 模型 进行 改良 : Guided Search 2.0 -- Wolfe, 
1994; Guided Search 3.0 -- Wolfe & Gancarz, 1997; 
Guided Search 4.0 -- Wolfe & Gray, 2007; Guided 
Search 5.0 -- Wolfe et al, 2015), MARA CLE 1) 
中 自 上 而 下 影响 因素 主要 由 三 个 部 分 组 成 , 包括 
模板 引导 (template guidance)、 人 情景 引导 (episodic 
guidance) 和 语义 引导 (semantic guidance)。 模 板 引 


动态 光 流 信息 引入 视觉 搜索 ,在 提高 人 类 搜索 效 
率 、 改 善人 工 智 能 搜索 算法 等 应 用 方面 起 到 推进 
EH, 有 和 较 高 的 应 用 价值 和 社会 意义 ,正如 Wolfe 
所 说 “我 们 的 健康 和 安全 部 分 寄托 于 成 功 的 搜索 ” 
(“our health and safety rely, in part, on successful 
search”, Wolfe, 2003, p.75). 


2 国内 外 研究 现状 


2.1 视觉 搜索 理论 及 发 展 
Anne Treisman 以 其 突破 性 的 特征 整合 理论 


导 指 的 是 搜索 者 对 搜索 目标 物 的 了 解 和 背景 知识 
(Bahle, Matsukura, & Hollingworth, 2018; Duncan 
& Humphreys, 1989)。 情景 引导 指 的 是 在 相似 情境 
中 目标 物 曾经 在 哪里 出 现 过 (Brooks，Rasmussen， 
& Hollingworth, 2010; Vo & Wolfe, 2012)。 语 义 引 
导 指 的 是 在 同类 情境 中 目标 物 可 能 出 现在 哪里 ， 
受到 背景 信息 、 物 体 - 场 景 关 系 和 物体 -物体 关系 
的 影响 (Wolfe，Cain, & Aizenman, 2019; JL Wu, 
Wick, & Poumplun, 2014 的 综述 )。 至 此 ， 对 影响 真 
实 环境 中 搜索 的 自 上 而 下 的 因素 分 析 已 经 比较 完 


(Feature Integration Theory，FIT) 开 启 了 当代 视觉 
搜索 研究 的 进程 。FIT 将 搜索 过 程 划 分 为 两 个 阶 
Be: 前 注意 阶段 ， 特 征 首先 在 视野 中 自动 和 并 行 
加 工 ; 随后 的 注意 阶段 ， 则 借助 注意 来 绑 定 特征 
从 而 对 物体 进行 序列 识别 (Treisman & Gormican, 
1988). Duncan 和 Humphreys (1989) 不 同意 Treisman 
关于 并 行 搜索 和 序列 搜索 之 间 的 二 分 法 ， 转 而 提 
出 了 相似 性 理论 (similarity theory)。 他 们 认为 ， 当 
干扰 子 是 同 质 的 并 且 与 目标 非常 不 同时 , 视觉 搜 
索 任 务 很 容易 ， 反之 则 难 。 为 了 填补 前 注意 阶段 
中 特征 对 于 注意 分 配 的 引导 机 制 的 空白 , Wolfe 等 
(1989) 修 改 了 FIT 并 提出 了 引导 搜索 模型 ,在 该 模 
型 中 ,对 注意 的 引导 分 为 自 上 而 下 和 自 下 而 上 两 
个 部 分 。 基 中 ,， 自 下 而 上 的 注意 引导 关注 的 是 刺 
激 的 局 部 对 比 度 或 物理 显著 性 信息 ; 自 上 而 下 的 
注意 引导 关注 的 是 在 不 同 特征 上 当前 项 目 与 目标 
的 匹配 程度 。 最 终 的 搜索 效率 是 两 种 引导 的 加 权 
和 。 引 导 搜 索 模 型 影响 巨大 ， 此 后 几乎 所 有 的 视 
觉 搜索 理论 研究 基本 都 是 在 该 模型 的 框架 内 细 
化 、 论 证 。 

近年 来 , 借助 技术 (尤其 是 便携 式 眼 动 、 虚 拟 
现实 ) 和 算法 ( 贝 叶 斯 估计 、 网 络 模型 等 ) 的 发 展 ， 
越 来 越 多 的 视觉 搜索 研究 通过 增加 背景 和 搜索 对 


善 ， 并 形成 一 些 统一 的 认识 。 

引导 搜索 模型 中 ， 自 下 而 上 的 影响 因素 主要 
包括 搜索 对 象 的 影像 显著 性 (Koehler, Guo, Zhang, 
& Eckstein, 2014)， 即 搜索 对 象 间 影像 差异 性 越 大 
或 者 搜索 目标 的 影像 越 突 出 ,搜索 越 快 越 准 。 
Koch 和 Ullman (1987) 提 出 了 显著 性 地 图 (saliency 
map)， 即 根据 搜索 对 象 多 个 特征 的 显著 差异 形成 
分 布 图 ， 以 此 来 预测 观察 者 的 搜索 位 置 。 该 理论 
被 许多 实验 研究 结果 支持 (De Vries, Hooge, 
Wertheim, & Verstraten 2013; Kamkar, Moghaddam, 
& Lashgari, 2018)。 然 而 ， 近 年 来 有 研究 发 现 ， 影 
像 显 著 性 对 注意 分 配 的 影响 仅 局 限于 实验 室 任务 ， 
不 能 泛 化 到 真实 环境 中 的 视觉 搜索 。 例 如 ,在 真 
实 场景 中 搜索 时 , 视觉 刺激 的 显著 性 不 能 预测 或 
解释 观察 者 搜索 时 的 眼 动 (Wu et al., 2014)。 鉴 于 
眼 动 注视 点 是 体现 注意 分 配 的 重要 行为 指标 
(Henderson & Hayes, 2017)， 这 意味 着 显著 性 地 图 
模型 不 能 解释 真实 搜索 中 的 注意 分 配 ， 也 不 能 预 
测 真实 环境 中 的 搜索 行为 (Foulsham & Underwood, 
2009; Henderson, Malcolm, & Schandl, 2009)。 

我 们 认为 ， 通 过 实验 室 任务 验证 的 显著 性 之 
所 以 无 法 解释 真实 环境 中 的 搜索 ， 是 因为 实验 室 
任务 中 对 于 观察 者 和 观察 对 象 的 设置 太 过 简单 和 
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真实 环境 里 的 视觉 搜索 
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自 上 而 下 内 源 性 机 制 


图 1 理论 模型 框架 。 我们 认为 视觉 信息 对 真实 环境 里 的 视觉 搜索 起 到 自 下 而 上 的 影响 , 尤其 是 光 流 以 及 光 流 和 影 


像 结构 的 交互 。 本 研究 补充 了 光 流 信息 在 视觉 搜索 
体 觉 信息 可 能 以 其 它 方式 对 视觉 搜索 造成 自 上 而 下 的 影响 ,有待 后 续 研 究 。 图 中 实 线 框 为 现 有 理论 模型 ， 主 


Pp 的 自 下 而 上 的 作用 , 但 是 运动 产生 的 视觉 、 运 动 觉 及 本 


要 基于 Wolfe 的 引导 搜索 模型 。 虚 线 框 内 为 本 文 提 出 理论 构想 的 关键 词 。 


理想 化 。 首 先 ， 有 研究 者 提出 显著 的 观察 对 象 必 
须要 进入 观察 者 的 中 央视 野 ， 其 显著 性 才能 起 作 
用 (Wolfe, 2003; Foulsham, Chapman, Nasiopoulos, 
& Kingstone, 2014)。 在 实验 室 电脑 上 进行 的 搜索 
任务 ， 观 察 者 大 都 端 坐 于 电脑 前 ， 头 部 固定 ， 静 
态 的 观察 对 象 落 在 中 央视 野 ， 这 显然 不 是 真实 世 
界 搜索 时 的 情况 。 举 例 来 说 , Foulsham 等 人 (2014) 
设计 了 一 个 真实 的 搜索 任务 ， 要 求 参 与 者 从 实验 
室 穿 过 几 条 走廊 进入 收发 室 , 收发 室 里 有 一 整 面 
墙 都 是 同样 形状 大 小 信箱 格子 ( 共 120 个 ), 被 试 
需要 找到 一 个 目标 信箱 。 在 一 半 试 次 中 , 研究 者 
将 目标 信箱 涂 成 痰 光 粉 色 , 希望 明显 的 颜色 特征 
可 以 突出 目标 , 激发 前 注意 搜索 。 但 是 实验 结果 
显示 , 无 论 目标 信箱 有 没有 被 涂 成 粉色 ， 搜 索 反 
应 时 都 是 一 样 的 ， 目 标 物 的 显著 性 对 反应 时 没有 
影响 。 研 究 者 认为 ,在 真实 场景 中 ,观察 者 相对 于 
环境 来 讲 非 常 小 所 以 观察 者 需要 先 移动 身体 和 
Sk, 对 环境 进行 扫描 ,然后 再 用 眼睛 进行 搜索 。 眼 
青 的 搜索 是 租 套 在 身体 搜索 中 的 二 级 搜索 。 当 头 
刚好 对 着 目标 方向 再 用 眼睛 进行 搜索 时 ,显著 性 
才 起 到 作用 。 由 于 第 一 阶段 的 身体 搜索 远 比 眼 睛 
搜索 耗 时 长 (在 上 述 实验 中 ,身体 搜索 用 了 26 秒 
而 眼睛 搜索 用 了 4 秒 )， 显 著 性 对 真实 环境 中 搜索 
的 帮助 便 无 法 体现 出 来 了 。 第 二 , 显著 性 不 是 一 
成 不 变 的 ,而 是 动态 的 (dynamic)、 情 境 的 
(situated), 会 随 着 时 间 空 间 变 化 而 变化 , 现 有 理论 
认为 搜索 对 象 在 颜色 、 形 状 、 大 小 、 运 动 等 几 个 
维度 上 的 差异 影响 搜索 效率 , 差异 越 大 目标 越 显 


著 。 但 是 在 现实 环境 里 ,观察 时 间 、 观 察 者 的 姿 
态 或 物体 的 移动 可 能 改变 光影 、 观 察 角度 、 观 察 
距离 、 观 察 对 象 间 的 遮挡 关系 等 ， 从 而 改变 搜索 
对 象 的 颜色 、 形 状 、 大 小 等 影像 信息 。 在 这 种 情 
况 下 ,搜索 对 象 的 显著 程度 几乎 无 法 定义 或 量 
化 。 另 外 , 真实 搜索 中 也 会 存在 多 个 维度 一 起 变 
化 的 情况 ， 比 如 一 个 物体 的 颜色 突出 , 但 是 另 一 
个 物体 是 运动 的 ,那么 颜色 和 运动 哪个 更 为 显著 
就 难 有 定论 。 

总 结 现 有 视觉 搜索 研究 进展 及 对 今后 搜索 研 
究 的 建议 , 我 们 认为 要 想 解释 真实 环境 中 的 视觉 
搜索 ,必须 将 搜索 还 原 到 最 真实 的 环境 (Kingston 
et al, 2003; Kingston, Smilek, & Eastwood, 2008), 
加 入 环境 的 变化 和 观察 对 象 的 运动 、 考 虑 观察 者 
的 主动 运动 (Tatler,，Hayhoe, Land, & Ballard, 
2011)、 重 视 观 察 者 和 环境 的 融合 (Nakayama & 
Martini, 2011)。 这 些 都 是 Gibson 生态 知觉 理论 的 
核心 思想 (Gibson, 1958; Gibson, 1979/1986)。 所 以 
将 生态 知觉 理论 引入 视觉 搜索 显得 自然 且 必 须 。 
在 生态 知觉 理论 体系 下 ,运动 产生 了 动态 光 流 信 
AA, 这 种 信息 可 以 标示 环境 中 物体 的 结构 和 关 
Ro 动态 光 流 信息 和 三 维 物体 的 静态 影像 结构 ( 影 
像 显 著 性 ) 两 者 结合 在 一 起 形成 了 视觉 信息 。 动 、 
静态 视觉 信息 作为 一 个 整体 取代 原来 基于 平面 图 
片 (或 场景 ) 的 影像 显著 性 在 引导 搜索 模型 中 的 位 
置 , 构成 影响 视觉 搜索 的 自 下 而 上 的 因素 。 
2.2 ”生态 知觉 理论 和 视觉 信息 

在 视觉 搜索 领域 , 复原 真实 环境 的 手法 通常 
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是 从 场景 照片 里 面 搜索 。 但 是 Gibson 明确 提出 ， 


真实 场景 和 场景 图 片 是 不 同 的 : “看 着 尼亚加拉 瀑 


布 的 感受 和 看 着 尼 


加 拉 瀑 布 照片 的 感受 是 不 一 


样 的 (Gibson, 1979)”; HH, 看 着 厨房 的 图 片 搜 索 
和 真正 在 厨房 里 搜索 也 是 不 一 样 的 。 差 异 在 于 在 


真实 环境 中 


， 观 察 者 或 观察 对 象 是 可 以 运动 的 。 


运动 使 观察 对 象 的 影像 不 断 变 形 、 相 互 遮 掩 ， 使 


单纯 基于 影 


梨 匹 配 的 搜索 不 可 行 。 但 是 运动 产生 


了 另 一 种 信息 : 光 流 ， 这 是 一 种 动态 的 信息 ， 可 以 
标示 环境 中 物体 的 结构 和 关系 。 

生态 光学 理论 认为 一 切 视觉 任务 都 依赖 光学 
信息 。Gibson (1966) 提 出 光 投 入 环境 ,被 环境 中 的 
表面 或 物体 反射 ， 形成 环境 光 (Ambient light)。 环 
境 光 携带 关于 整个 环境 的 信息 。 如 , 瓷砖 、 大 理 石 、 
金属 表面 反射 出 的 环境 光 不 一 样 ， 所 以 通过 察觉 
环境 光 ， 人 可 以 知道 哪个 是 厨房 墙 面 ， 哪 个 是 台 
面 ， 哪 个 是 洗 菜 盆 。 

环境 光 汇 聚 到 一 个 观测 点 ,形成 一 组 光 阵 。 
对 于 某 一 观测 点 ， 构 成 静态 光 阵 的 各 部 分 表面 有 
着 不 同 的 视 立 体 角 (visual solid angle)， 这 些 视 立 
体 角 与 环境 中 的 物体 表面 的 布局 结构 一 一 对 应 ， 
形成 静态 影像 结构 信息 。 静 态 影 像 结构 信 息 包括 
边界 (edge) 、 光 影 (shading) 、 颜 色 或 强度 对 比 
(contrast of color or intensity) 等 。 这 种 信息 是 持久 


的 ,只 要 物体 存在 ,影像 结构 信息 就 存在 。 


当 观 察 者 行进 或 环境 中 物体 发 生 运 动 时 ， 光 
阵 中 的 各 视 立体 角 也 随 之 发 生变 化 ,它们 或 新 
增 、 或 消失 、 或 放大 、 或 缩小 。 光 阵 连续 变化 形 
成 光 流 信息 。 光 流 状 态 与 观察 者 在 环境 中 相对 运 
动 速度 、 运 动 方 向 以 及 观察 者 与 运动 物体 的 距离 
一 一 对 应 ， 如 距离 观察 者 越 远 的 物体 光 流 速度 越 
慢 , 在 观察 者 正 前 方 的 物体 比 在 她 视野 边缘 的 物 
体 光 流速 度 快 。 光 流 由 运动 产生 ,与 运动 模式 一 
一 对 应 ; 观察 者 通过 察觉 光 流 的 状态 、 方 向 、 速 
度 和 不 动 点 的 位 置 ， 知觉 自身 或 环境 物体 的 运动 
模式 (图 2)。 

环境 中 各 物体 表面 对 应 某 一 个 观测 点 并 形成 
唯一 的 光 阵 ， 而 观测 点 或 环境 物体 的 运动 方式 形 
成 唯一 的 光 流 。 这 样 的 一 一 对 应 关系 是 由 自然 法 
则 所 决定 的 。 环 境 中 某 一 表面 投射 到 某 一 观测 点 
的 影像 结构 信息 由 几何 规律 所 约束 ， 不 是 随机 的 ; 
运动 产生 的 连续 光 流 由 动力 学 规律 和 运动 学 规 
律 约 束 ， 也 不 是 随机 的 。 这 样 的 规律 性 ， 使 观察 
者 可 以 通过 静态 和 动态 信息 准确 知觉 环境 的 结构 
和 性 质 。 

所 以 , 要 在 实验 室 中 复原 真实 环境 里 的 搜索 ， 
仅 使 用 真实 图 片 或 者 虚拟 现实 显示 是 不 够 的 ， 关 
键 是 要 提供 影像 结构 和 光 流 ， 这 样 才能 构建 更 具 
生态 效 度 的 实验 场景 , 设置 更 接近 真实 环境 的 搜 
索 条 件 ， 以 探究 真实 环境 里 的 视觉 搜索 。 


观察 者 信息 环境 
> = 
A, 光 Se 攻关 
SZ Sc i 
静止 运动 Se 
mina — 光 阵 人 SS sem SS 
= | 
Ou 
按 运动 主体 分 按 运 动 方式 分 按 运 动 方向 分 
/// 全 局 ”局 部 ke 平移 径 向 Z6 
ORR He 光 流 外 流 ”内 流 
i b 身体 作 LI Wy 
Ais © i ; 平移 运 Š : 
G944 等 旋转 导 动 导致 == 
标示 人 在 环 ”标示 物体 运动 至 的 光 流 mR /标示 
C 境 中 运动 前 进 运 动 后 退 运动 1) 
图 2 生态 光学 理论 总 结 。Gibson 认为 观察 者 利用 环境 光 里 的 视觉 信息 完成 知觉 任务 。 环 境 光 里 包括 静态 影像 结构 


信息 和 动态 光 流 信息 。 
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2.3 动 、 静 态 视觉 信息 在 知觉 

事件 中 的 作用 

在 自然 的 观察 环境 里 ， 动 、 静 态 视觉 信息 同 
时 存在 。 光 流 和 影像 结构 信息 结合 可 以 帮助 准确 
稳定 地 知觉 场景 、 物 体 结构 和 事件 。 首 先 , 研究 
发 现 观察 者 可 以 利用 自身 运动 生成 的 光 流 识别 模 
糊 场景 ， 光 流 强度 和 场景 识别 的 表现 呈正 相关 
(Wu, Wang, & Pan, 2019)。 

第 二 , 观察 者 可 以 利用 动态 视觉 信息 准确 知 
觉 物体 的 三 维 结构 ， 这 个 机 制 叫做 运动 恢复 结构 
(structure-from-motion; Domini, Vuong, & Caudek, 
2002; Todd, Tittle, & Norman, 1995)。 如 , Lind 和 同 
事 (Lee, Lind, Bingham, & Bingham, 2012) 发 现 当 
将 不 同 宽 度 - 深 度 比 的 圆柱 体 摆 在 观察 者 面前 时 ， 
观察 者 从 约 45° 俯 视角 观察 如果 观 察 目标 和 观 
察 者 都 处 于 静止 状态 , 仅 赁 影像 结构 无 法 知觉 物 
本 的 三 维 结构 。 但 是 只 要 观察 者 和 观察 目标 之 间 
存在 连续 的 45" 以 上 的 视角 变化 (观察 者 或 者 观察 
目标 旋转 45$" 以 上 )， 则 观察 者 可 以 准确 知觉 物体 
三 维 结构 。 
第 三 ,， 光 流 和 影像 结构 可 以 帮助 事件 识别 
(Pan, Bingham, & Bingham, 2013; Pan et al, 2017). 
事件 指 运动 中 的 物体 。 而 生物 运动 是 事件 的 一 种 ， 
也 是 其 中 最 被 深入 研究 的 一 种 。 研 究 发 现 观 察 者 
可 以 通过 光 点 运动 产生 的 视觉 信息 识别 多 种 运 
动 、 动 作者 的 特征 、 和 其 它 非 生 物 运动 的 事件 (如 ， 
一 个 滚动 的 球 , 波动 的 水 面 等 Bingham, Rosenblum, 
& Schmidt, 1995)。 此 外 ,少量 研究 在 生物 运动 范 
式 中 加 入 简单 的 影像 信息 (如 将 光 点 连 线 , 或 者 加 
上 轮廓 线 )， 并 使 用 贝 叶 斯 模型 (理想 观察 者 模 
Hl”, ideal observer model) 分 析 了 实验 刺激 里 的 信 
， 发现 改 变 视觉 刺激 的 信息 量 会 影响 识 
别 、 分 辨 生物 运动 的 效率 (Gold，Tadin,，Cook, & 
blake, 2008; Lu, Tjan, & Liu, 2017)。 

学 者 们 对 动 、 静 态 视 觉 信息 在 事件 识别 中 所 
起 到 的 作用 进行 了 研究 ， 并 提出 了 “ 力 约束 运动 
理论 ”(kinematics-specified-by-dynamics theory, 
Runeson & Frykholm, 1983)。 研究 者 们 认为 ,因为 
每 项 运动 背后 的 物理 动力 (dynamics) 不 同 (如 ， 形 
成 跑 、 跳 、 走 等 不 同 运 动 的 力 是 完全 不 同 的 )， 每 
个 运动 者 的 身体 具有 不 同 的 物理 属性 (质量 、 上 胶体 
长 度 、 关 节 灵 活性 、 肌 肉 强度 等 ) 所 以 不 同 运 动 
者 做 出 的 不 同 运 动 就 具有 独特 的 、 固 定 的 运动 学 
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(kinematics) 特 性 。 当 观察 者 只 接收 到 动态 视觉 信 
息 时 ,根据 观察 到 的 运动 特征 ， 可 以 知觉 生物 运 
动 及 运动 者 本 身 的 性 质 ， 从 而 知觉 具体 事件 。 
Bingham 和 同事 后 续 提 出 标示 事件 动态 信息 的 视 
觉 信息 是 轨迹 形态 ， 即 运动 物体 位 置 和 速度 的 关 


X 
a(*) (trajectory form; Bingham et al., 1995; 
X 


Bingham et al., 1995; Muchisky & Bingham, 2002; 
Wickelgren & Bingham, 2004, 2008b). 轨迹 形态 受 
力 的 影响 。 每 种 动力 会 产生 唯一 的 轨迹 形态 ,所 
以 可 以 用 来 标示 事件 。 研 究 发 现 ， 人 们 对 这 种 动 
态 信息 非常 敏感 ， 可 以 通过 该 信息 分 辩 非 常 类 似 
的 事件 ， 如 手 晃动 控制 的 钟 摆 和 自由 摆动 的 钟 摆 
(Muchisky & Bingham, 2002)。 更 重要 的 是 ， 轨迹 
形态 信息 不 受 观 察 视角 影响 ， 即 便 是 从 不 熟悉 的 
观察 角度 也 可 以 识别 事件 (Wickelgren & Bingham 
2004, 2008)。 

综 上 所 述 , 观察 者 的 运动 可 以 产生 光 流 ; 通 
过 运动 恢复 物体 的 结构 ,识别 静止 的 三 维 物体 ; 
观察 者 注意 物体 的 运动 状态 ,可 以 识别 事件 及 所 
涉及 的 物体 属性 。 那 么 动 、 静 态 视觉 信息 在 知 党 
活动 中 的 作用 是 否 可 以 迁移 到 视觉 搜索 任务 中 
呢 ? 答案 是 肯定 的 。 前 文 已 论述 过 ,真实 环境 里 
的 搜索 和 基于 照片 的 搜索 最 大 的 区 别 就 是 运动 。 
在 真实 环境 里 ， 观 察 者 和 观察 对 象 之 间 的 相对 运 
动 会 改变 静态 影像 信息 及 影像 的 显著 性 ， 所 以 有 
效 的 搜索 机 制 必须 可 以 适应 或 抵抗 由 运动 引起 的 
搜索 对 象 外 形 的 变化 (Seidl-Rathkopf Turk-Browne, 
& Kastner，2015)。 因 而 ,独立 于 影像 的 、 可 以 抵 
抗 视角 变化 的 动态 视觉 信息 (如 轨迹 形态 ) 很 有 可 
能 就 是 人 们 在 真实 搜索 中 需要 的 信息 。 
2.4 动 、 静 态 视 觉 信 息 在 视觉 搜索 任务 中 的 作用 

只 包含 运动 信息 的 生物 运动 范式 已 经 被 应 用 
于 注意 研究 领域 (Ding, Yin, Shui, Zhou, & Shen, 
2017; Mayer, Vuong, & Thornton, 2015), 但 使 用 生 
物 运动 范 式 研究 视觉 搜索 的 并 不 多 。 这 些 研究 发 
现 ， 观 察 者 仅 通过 光 点 显示 就 可 以 从 随机 和 运动 的 
光 点 中 找 出 光 点 行走 者 (Hirai & Hiraki, 2006)， 从 
正 立 的 行走 者 里 找 出 倒立 的 行走 者 (Wang，Zhang 
He, & Jiang，2010)， 找 出 行走 方向 不 同 的 人 
(Cavanagh, Labianca, & Thornton，2001)， 和 区 分 
不 同 运动 (Van Boxtel & Lu, 2011). 
真实 环境 中 的 视觉 搜索 通常 同时 存在 动 、 静 
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态 两 种 视觉 信息 。 然 而 , 早期 在 引导 搜索 模型 框 
架 下 的 实验 任务 多 采用 二 维 静 态 图 形 或 符号 作为 
搜索 对 象 ， 观 察 者 多 数 不 能 随意 移动 身体 进行 搜 
索 。 然 而 在 真实 环境 里 的 视觉 搜索 ， 对 象 可 以 是 
静止 或 移动 的 三 维 物 体 ， 观 察 者 也 可 以 是 静止 或 
者 运动 的 。 例 如 在 上 述 Foulsham 等 人 (2014) 的 研 
SEP, 虽然 被 试 走 进 收发 室 , 寻找 目标 邮箱 , 但 
是 实验 中 也 仅仅 通过 改变 目标 邮箱 的 显著 性 (加 
粉色 边框 ) 来 操纵 自 下 而 上 的 信息 ， 却 没有 考虑 移 
动 过 程 中 动态 信息 和 静态 信息 的 交互 作用 。 近 年 
来 ， 一 些 研 究 者 采用 不 同方 法 探究 被 试 走动 对 搜 
索 的 影响 (Smith, Hood, & Gilchrist, 2008, 2010)。 
例如 ,Ruddle 和 Lessels (2006) 借 助 仿真 技术 设计 
了 一 个 被 试 在 虚拟 现实 场景 中 搜索 目标 物 的 任务 ， 
被 试 需要 到 16 个 不 同位 置 寻找 8 个 目标 物 。 第 一 
组 被 试 只 能 坐 在 屏幕 前 (身体 被 固定 ) 通 过 移动 鼠 
标 来 模拟 场景 中 的 转向 和 前 进 运动 ; 第 二 组 被 试 
允许 在 固定 位 置 上 转动 身体 ， 并 借助 立体 显示 头 
(Stereo HMD) 实 现在 场景 中 的 转向 , 但 仍 需 移 
动 鼠 标 才能 前 进 到 不 同位 置 ; 不 同 于 前 两 组 , 第 
三 组 被 试 可 以 在 真实 环境 中 走 到 任意 位 置 进行 搜 
索 。 实 验 结果 表明 ,身体 被 固定 的 被 试 在 搜索 效 
率 上 均 差 于 其 他 两 组 被 试 , 而 允许 随意 走动 的 被 
ik, 其 搜索 效率 最 高 。 也 就 是 说 ， 身 体 运动 所 产生 
的 动态 信息 与 搜索 对 象 的 静态 信息 相 结 合 时 可 能 
有 利于 提高 视觉 搜索 效率 。 

前 人 提出 的 “ 具 身 记忆 模型 ” (Pan et al., 2013) 
认为 ， 当 动 、 静 态 视觉 信息 同时 标示 一 个 事件 时 ， 
光 流 具有 空间 方面 的 准确 性 ， 可 以 校准 影像 结构 ， 
帮助 观察 者 准确 识别 物体 和 环境 的 三 维 关系 ; 影 


HI 


出 多 个 目标 物 )， 上 述 两 个 任务 实际 上 更 偏向 于 视 
觉 搜 索 。 

综 上 , 现 有 研究 已 经 表明 ,观察 者 可 以 利用 
动态 视觉 信息 搜索 事件 (生物 运动 及 非 生物 运动 )， 
可 以 利用 静态 视觉 信息 搜索 物体 。 于 是 , 我 们 在 
现 有 引导 搜索 模型 的 基础 上 , 加 入 视觉 信息 变量 ， 
提出 光 流 和 影像 结构 是 影响 搜索 的 自 下 而 上 的 重 
要 因素 。 观 察 者 利用 搜索 对 象 之 间 影 像 的 差异 区 
分 不 同 个 体 ,， 差异 越 大 的 物体 越 显著 ,容易 被 搜 
索 ; 观察 者 可 以 利用 光 流 信息 知觉 搜索 对 象 的 运 
动 特征 及 背后 的 力学 属性 ， 从 而 区 分 不 同 的 搜索 
对 象 (图 1). MPR, 观察 者 自身 的 运动 除了 可 以 在 
视觉 层面 生成 光 流 信息 ,也 会 产生 运动 觉 、 本 体 
觉 等 信息 。 观 察 者 在 运动 中 进行 视觉 搜索 时 ， 运 
动 提 供 了 更 多 的 自 下 而 上 的 视觉 信息 ， 帮 助 视觉 
搜索 ; 但 不 能 排除 运动 相关 信息 对 高 级 认 知 过 程 
的 影响 ,如 工作 记忆 注意 等 , 且 这 种 影响 可 能 是 
抑制 性 的 (Mayer Riddell, & Lappe, 2019). 


3 ”研究 构想 


3.1 ”科学 问题 

本 研究 拟 解 决 的 第 一 个 科学 问题 是 : 影响 真 
实 环境 中 搜索 三 维 物体 和 事件 的 自 下 而 上 的 因素 
是 什么 。 现 有 理论 将 影响 真实 环境 中 搜索 行为 的 
因素 分 为 自 下 而 上 和 自 上 而 下 两 类 ， 其 中 自 下 而 
上 的 原因 被 归结 为 搜索 对 象 影像 的 显著 性 。 我 们 
认为 这 是 不 充分 的 。 我 们 提出 对 搜索 产生 自 下 而 
上 影响 的 是 视觉 信息 ,包括 静态 影像 结构 和 动态 
光 流 信息 ， 且 两 种 信息 之 间 存 在 交互 作用 。 我 们 
通过 研究 一 和 研究 二 分 别 研究 影像 结构 信息 和 光 


像 结构 具有 时 间 方 面 的 稳定 性 ， 可 以 在 运动 停 
止 、 光 流 消失 后 形成 具 身 记忆 ,使 观察 者 持续 知 
觉 三 维 结构 。 我 们 发 现 影 像 信息 和 光 流 信息 的 结 
合 可 以 使 观察 者 准确 找 出 被 隐藏 或 被 伪装 的 目标 
Wo TE Pan 等 人 (2013, 2017) 的 研究 中 ,多 个 目标 
物 逐 渐 被 干扰 物 遮 挡 ,， 被 试 可 以 利用 两 种 视觉 信 
息 , 在 让 挡 的 过 程 中 和 被 完全 遮挡 后 ,准确 找 出 
目标 物 .在 Pan, Bingham, Chen 和 Bingham (2017) 
的 研究 中 ， 当 目标 物 和 干扰 物 外 形 完全 一 样 , 但 
空间 位 置 不 同时 , 被 试 可 以 利用 两 种 视觉 信息 准 
确 稳定 地 找 出 目标 物 。 按 照 Nakayama 和 Martini 
(2011) 的 对 识别 和 搜索 任务 的 界定 (识别 是 通过 多 
种 特征 认 出 一 个 目标 物 ， 搜 索 是 通过 少数 特征 找 


流 信息 在 搜索 静止 的 三 维 物体 和 运动 的 事件 时 的 
作用 ， 从 而 回答 动 、 静 态 视 觉 信息 如 何 被 整合 利 
用 以 完成 真实 环境 中 的 视觉 搜索 这 一 科学 问题 。 

本 研究 拟 解 决 的 第 二 个 科学 问题 是 : 传统 的 
视觉 搜索 理论 能 否 泛 化 并 预测 真实 环境 中 的 视觉 
搜索 行为 。 传 统 的 视觉 搜索 研究 多 使 用 二 维 图 像 
作为 搜索 对 象 ， 经 过 几 十 年 的 探索 得 出 许多 理论 ， 
这 些 理论 可 以 解释 基于 二 维 图 像 的 搜索 行为 ， 如 
放射 科 医 生 从 久光 片 中 识别 异常 组 织 。 但 是 真实 
环境 中 的 搜索 任务 更 加 复杂 : 搜索 目标 、 干 扰 子 
是 三 维 的 ,观察 者 和 观察 对 象 是 可 以 运动 的 ， 搜 
索 视 角 会 变化 ,背景 环境 繁杂 等 等 。 所 以 在 平面 
图 像 上 的 视觉 搜索 和 真实 环境 中 的 视觉 搜索 是 否 
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存在 相似 的 行为 规律 ? 我 们 通过 直接 比较 两 种 搜 


体 排列 在 桌面 上 ， 被 试 坐 在 桌 边 ， 以 45° 俯 视角 观 


索 表现 (研究 一 ) 和 比较 搜索 训练 的 效果 (如 果 通 过 
训练 平面 上 的 搜索 可 以 提高 真实 环境 中 的 搜索 表 
现 ， 则 两 种 搜索 本 质 上 相通 ; 研究 三 ) 两 种 方法 回 
答 这 个 问题 。 
3.2 ”研究 方案 

在 本 项 目 中 , 我 们 通过 三 个 子 研究 (技术 路 线 
总 图 见 图 3) 来 探究 利用 动 、 静 态 视觉 信息 的 视觉 
搜索 过 程 和 机 制 ， 以 及 提高 视觉 搜索 效率 的 干预 
方式 。 研 究 中 主要 使 用 心理 物理 法 、 贝 叶 斯 估计 
等 方法 分 析 刺 激 中 的 信息 量 、 搜 索 效 率 及 二 者 
间 的 关系 。 通 过 三 个 子 研 究 ， 系 统 梳理 影像 结构 
和 光 流 信息 在 搜索 中 的 作用 ， 验证 视觉 信息 对 搜 
索 产 生 的 自 下 而 上 的 影响 ,完善 基于 视觉 信息 和 
注意 引导 的 搜索 模型 。 再 将 理论 应 用 到 对 人 的 视 
觉 搜索 训练 ， 和 对 智能 搜索 的 设计 中 去 ， 从 而 帮 
助人 和 机 器 更 好 地 完成 搜索 任务 。 

3.2.1 ”研究 一 : 利用 动 、 静 态 视觉 信息 对 静止 目 
标 物体 的 搜索 

研究 一 将 通过 3 个 实验 来 探索 当 搜索 目标 静 
止 时 ， 静 止 或 运动 的 观察 者 如 何 进行 视觉 搜索 ， 
找到 目标 物体 。 分 别 对 应 三 个 问题 : TD) 运动 恢复 
结构 能 否 帮 助 搜索 三 维 物体 ; 2) 视 觉 搜索 效率 是 
否 受 视角 转变 (perspective change) 的 影响 ; 3) 观 察 
者 运动 时 , 视角 发 生 连 续 变 化 ,导致 视网膜 上 的 
像 连 续 变 化 ， 两 种 视觉 信息 能 否 解 决 这 种 变化 对 
搜索 的 影响 。 

在 实验 1.1 中 , 我 们 在 电脑 屏幕 上 分 别 以 正 
投影 (观察 角度 为 0) 和 透视 投影 (45° 俯 视角 ) 的 方 
式 旦 现 刺激 ， 比 较 搜 索 表现 以 得 出 视角 转变 是 否 
对 视觉 搜索 产生 影响 ,实验 1.2 中 , 我们 将 真实 物 


察 搜索 序列 ， 在 搜索 对 象 不 动 、 搜 索 对 象 被 动 旋 
转 、 及 被 试 主动 旋转 搜索 对 象 的 情况 下 ， 找 出 目 
标 物体 。 对 比 实 验 1.2 和 实验 1.1, 我 们 可 以 得 知 
真实 环境 中 的 搜索 和 电脑 上 模拟 的 真实 场景 中 的 
搜索 是 否 相同 ,， 视角 变化 及 运动 恢复 结构 能 否 促 
进 搜索 ,实验 1.3 中 , 我 们 在 虚拟 现实 环境 中 搭建 
更 逼真 更 复杂 的 搜索 场景 ， 允 许 观察 者 自由 移动 
观察 。 使 用 与 实验 1.1、1.2 相似 的 条 件 ， 比 较 三 
个 实验 的 结果 ， 以 验证 实验 室 研 究 的 效 度 ， 探 索 
影像 结构 和 光 流 信息 结合 对 真实 环境 中 物体 搜索 


的 影响 。 
3.2.2 ”研究 二 : 利用 动 、 静 态 视觉 信息 对 运动 事 
件 的 搜索 


研究 二 的 主要 问题 是 : 当 搜索 对 象 是 运动 中 
的 人 时 (运动 的 人 是 事件 )， 观 察 者 如 何 利 用 视觉 
信息 找到 某 一 个 人 。 许 多 利用 生物 运动 范式 的 研 
究 指 出 ， 人 类 观察 者 对 人 的 运动 十 分 敏感 ， 可 以 
仅 通 过 运动 信息 (而 不 需要 影像 信息 ) 识 别人 的 动 
作 ， 对 动作 进行 分 类 ,或 分 辨 运动 者 的 性 别 、 体 
型 、 情 绪 等 。 那 么 , 我们 可 以 仅 通过 运动 信息 从 
一 群 运动 的 人 中 找 出 某 一 个 运动 的 个 体 吗 ?此 外 ， 
在 传统 的 生物 运动 范式 中 ,一 个 运动 的 人 被 简化 
成 一 组 协 动 的 光 点 ， 并 从 矢 状 面 (sagittal view) 以 
正 投影 方式 呈现 ， 且 多 数 情况 下 ， 光 点 组 之 间 是 
独立 的 、 没 有 重合 或 穿插 (如 一 个 或 几 个 独立 的 光 
点 运动 者 在 电脑 屏幕 上 向 左 或 向 右 走 )。 但 是 在 真 
实 环境 中 ， 多 人 运动 不 只 停留 在 额 平行 平 玫 
(frontoparallel plane) 上 ,也 有 纵深 运动 ， 且 会 有 很 
ZERRE. MWKA WRR RI RIEF 
面 也 可 能 不 垂直 ， 如 站 在 高 处 看 或 者 监控 拍 到 


技术 路 线 总 图 动 、 静 态 视 觉 信 息 对 真实 环境 中 视觉 搜索 的 影响 


搜索 任务 


视觉 搜索 训练 


f 搜索 三维 物体 研究 一 


搜索 事件 | — 
、 (物体 + 运动 ) ， 研究 二 


研究 思路 : 控制 视觉 信息 , 比较 搜索 效率 ; 针对 不 同 信息 的 训练 能 否 提高 真实 搜索 的 表现 


实验 手段 : 心理 物理 法 、 光 流量 化 算法 、 贝 叶 


模型 、 眼 动 、 虚 拟 现 实 、 裸 眼 3D 


图 3 本 项 目的 技术 路 线 总 图 。 其 中 分 三 个 研究 , 分 别 对 应 静态 三 维 物 体 搜索 、 事 件 搜索 以 及 视觉 搜索 训练 。 
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的 视频 通常 存在 俯视 角 。 所 以 ， 当 存在 纵深 维度 
运动 和 运动 者 相互 遮挡 时 ,以 及 当 观 察 者 和 搜索 
对 象 之 间 存 在 视角 变化 时 ， 观 察 者 能 否 依赖 运动 
信息 搜索 到 某 一 个 运动 的 目标 ? 第 三 , 在 真实 环 
境 中 ,搜索 对 象 不 仅 有 运动 信息 还 有 影像 信息 。 
前 人 研究 发 现 ， 生 物 运动 的 呈现 方式 ( 光 点 、 连 线 、 
轮廓 线 或 剪影 ) 对 动作 识别 效率 有 很 大 影响 ,加 入 
一 些 影像 信息 (如 将 光 点 之 间 连 线 再 呈现 ) 会 使 识 
别 效率 更 高 (Lu et al., 2017)。 同 时 ， 影 像 结构 还 能 
影响 目标 物 和 干扰 子 之 间 、 干 扰 子 和 干扰 子 之 间 
的 相似 程度 以 及 搜索 对 象 的 显著 性 ， 从 而 改变 搜 
索 任 务 难 度 。 综 合 这 两 方面 的 原因 ， 在 搜索 任务 
中 ， 加 入 影像 信息 对 运动 目标 的 搜索 会 产生 怎样 
的 影响 呢 ? 最 后 ,在 真实 环境 中 , 往往 存在 不 止 
一 种 运动 , 如 在 街 上 有 人 行走 ,也 有 汽车 行驶 。 根 
据 “ 力 约束 运动 "理论 ， 人 行走 和 汽车 行驶 的 运动 
本 质 上 是 不 同 的 ， 具有 完全 不 同 的 力学 属性 ， 可 
以 很 容易 从 运动 信息 中 区 分 两 种 运动 。 在 信息 
面 ,加 入 另 一 种 完全 不 同 的 运动 不 会 影响 搜索 。 
但 是 运动 是 一 种 显著 的 线索 ,运动 的 干扰 子 可 以 
瞬间 抓 住 观察 者 注意 力 ， 影响 搜索 效率 。 所以， H 
标 显著 性 和 运动 学 特征 两 种 自 下 而 上 的 影响 对 事 
件 搜索 产生 怎样 的 交互 影响 呢 ? 

我 们 将 通过 4 个 实验 回答 上 述 问 题 。 实 验 2.1 
结合 视觉 搜索 和 生物 运动 的 实验 范式 , 将 运动 的 
光 点 组 相互 独立 地 从 矢 状 面 方向 以 正 投影 方式 呈 
现在 屏幕 上 ， 要 求 被 试 从 几 组 运动 的 光 点 中 找 出 
目标 运动 者 。 实 验 2.2 中 , 搜索 对 象 在 空间 中 穿插 
Ean, SERIA AS 、 穿 搬 及 非 刚性 运动 
(non-rigid motion)。 实 验 材料 会 从 0" 和 45" 两 个 俯 
视角 制作 ,模拟 沉浸 在 人 群 中 的 观察 者 的 搜索 视 
角 和 监控 录像 中 的 搜索 视角 两 种 情况 。 被 试 通过 
光 点 组 的 运动 找 出 目标 事件 ,在 实验 2.3 中 , 我们 
用 虚拟 现实 搭建 一 个 在 繁忙 场所 找 人 的 情景 ， 赋 
予 搜索 对 象 影像 结构 信息 ,操控 影像 显著 性 (如 改 
变 被 搜索 人 群 衣服 的 颜色 或 统 _- 性 )， 比 较 观 察 者 
静止 观察 时 和 运动 观察 时 的 事件 搜索 表现 。 在 实 
验 2.3 的 基础 上 , 实验 2.4 中 包含 静态 和 动态 干扰 
F, 研究 干扰 子 的 影像 显著 性 和 干扰 子 的 运动 特 
性 对 真实 环境 下 事件 搜索 的 交互 影响 。 我 们 加 入 
运动 的 干扰 子 (如 在 街 上 找 某 个 行人 的 搜索 任务 
中 加 入 行驶 的 车 辆 )， 以 探究 无 关 运 动 信息 对 搜索 
的 影响 ; 然后 改变 静态 干扰 子 的 显著 度 (如 加 入 闪 


NI 


烁 的 路 边 招牌 )， 以 探究 影像 结构 信息 显著 性 对 搜 
索 的 影响 。 
3.2.3 ”研究 三 ， 运用 仿真 手段 对 视觉 搜索 的 训练 
研究 一 、 二 从 理论 层面 探究 动 、 静 态 视觉 信 
息 如 何 被 整合 利用 从 而 完成 在 真实 环境 中 搜索 静 
止 的 物体 或 动态 的 事件 ， 并 梳理 总 结 各 种 因素 对 
搜索 效率 的 影响 。 在 此 理论 基础 之 上 , 研究 三 引 
在 找 出 能 够 有 效 提高 视觉 搜索 效率 的 训练 方法 。 
搜索 训练 的 目标 是 提高 在 复杂 搜索 任务 中 的 正确 
率 和 搜索 效率 ,搜索 任务 包括 静止 或 运动 的 观察 
者 搜索 目标 物体 或 事件 。 训 练 分 为 4 个 阶段 : 前 
测 -训练 - 后 测 -保持 。 前 测 指 未 经 训练 的 观察 者 在 
完成 任务 时 的 基线 水 平 。 后 测 指 经 过 训练 后 ， 达 
到 的 水 平 。 保 持 指 在 训练 后 的 一 段 时 间 里 ， 较 高 
的 搜索 效率 能 否 持续 。 训 练 是 最 重要 的 一 个 阶段 ， 
设计 训练 方案 的 一 个 重要 理念 是 如 何 通 过 练习 简 
单 任务 提高 在 复杂 任务 中 的 表现 。 训 练 需 根据 理 
论 研 究 得 出 的 影响 搜索 的 因素 , 通过 简单 的 、 可 
ee ESE Lanes 
ik eae 训练 效果 也 可 以 进一步 证 明 
论 研究 中 得 到 的 因素 是 否 确实 对 搜索 有 影响 。 
研究 三 通过 3 个 实验 找 出 最 有 效 的 训练 方 
法 。 每 个 实验 的 前 侧 、 后 测 、 保 持 阶段 的 任务 为 : 
静止 或 运动 的 观察 者 搜索 静止 的 目标 和 静止 的 观 
察 者 搜索 运动 的 目标 (分 别 对 应 研究 一 、 二 )， 而 训 
练 阶段 依照 训练 内 容 的 复杂 程度 分 为 三 个 实验 。 
实验 3.1: 训练 阶段 使 用 虚拟 现实 搭建 的 、 跟 其 它 
三 阶段 一 样 的 仿真 环境 。 实 验 3.2: 训练 阶段 使 用 
抽象 的 三 维 搜索 对 象 , 但 仍然 有 光 流 和 影像 结构 
信息 ， 如 研究 一 、 二 中 使 用 的 搜索 乐高 积木 或 搜 
索 光 点 行走 者 任务 。 实 验 3.3: 训练 阶段 使 用 传统 
的 平面 视觉 搜索 范式 (如 在 彩色 形状 中 找 红色 圆 
圈 之 类 )， 视 觉 信 息 不 同 ,但 是 搜索 同样 需要 注意 
分 配 和 控制 。 通 过 实验 3.1， 我 们 可 以 知道 能 和 否 通 
过 训练 提高 真实 环境 中 的 视觉 搜索 。 通 过 实验 3.2， 
我 们 可 以 知道 针对 视觉 信息 的 训练 ， 能 和 否 提高 视 
觉 搜索 表现 。 通 过 实验 3.3, 我 们 可 以 知道 针对 搜 
索 过 程 中 注意 的 训练 ,能 否 提 高 搜索 表现 。 从 实 
验 3.1 到 实验 3.3, 知觉 信息 逐步 减少 但 是 搜索 任 
务 原 理 上 一 致 ， 所 以 综合 比较 三 种 训练 的 效果 ， 
我 们 可 以 间接 知悉 影响 搜索 的 视觉 信息 因素 和 注 
意 因素 之 间 的 关系 ， 从 而 间接 验证 我 们 提出 的 基 
于 视觉 信息 和 注意 机 制 的 搜索 理论 。 
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成 功 的 视觉 搜索 是 人 类 生存 繁衍 的 必要 技 
能 。 大 量 视觉 搜索 研究 基于 引导 搜索 模型 开展 。 
该 模型 认为 : 在 搜索 过 程 中 ， 对 注意 的 引导 可 分 
为 自 上 而 下 和 自 下 而 上 两 个 部 分 。 自 上 而 下 的 影 
响 因素 包括 模板 引导 、 人 情景 引导 和 语义 引导 三 个 
部 分 。 对 于 这 三 个 部 分 的 研究 已 经 比较 完善 并 形 
成 一 些 统一 的 认识 。 自 下 而 上 部 分 则 简单 归 为 “ 影 
像 显 著 性 ”"。 然 而 ,近年 来 有 研究 发 现 ， 影像 显著 
性 对 注意 分 配 的 影响 局 限于 实验 室 任 务 , 不 能 泛 
化 到 真实 环境 中 的 视觉 搜索 (Henderson & Hayes, 
2017; Wu, Wick, & Pomplun, 2014)。 影 响 视觉 搜索 
的 自 下 而 上 因素 是 什么 则 成 了 关键 问题 。 另 外 ， 
传统 视觉 搜索 研究 多 数 针 对 静止 观察 者 和 静止 的 
搜索 对 象 ， 上 且 搜 索 对 象 以 平面 形式 呈现 。 然 而 这 
只 是 视觉 搜索 的 一 种 情况 。 真 实 环境 中 的 视觉 搜 
RK, 搜索 对 象 可 以 是 静止 或 移动 的 三 维 物体 ， 观 
察 者 也 可 以 是 静止 或 者 运动 的 。 传 统 的 实验 室 研 
究 结 果 能 否 泛 化 并 预测 真实 环境 中 的 视觉 搜索 也 
了 待 解答 。 
为 了 解决 上 述 两 个 问题 ,本 团队 特地 设计 了 
三 个 研究 进行 回答 。 我 们 将 结合 生态 知觉 理论 
(Gibson, 1966, 1979), 引入 动 、 静 态 视 觉 信息 来 完 
善 自 下 而 上 的 影响 因素 并 提出 理论 模型 ( 见 图 1)。 
同时 , 希望 在 视觉 搜索 研究 领域 取得 以 下 进展 : 
首先 , 研究 一 包括 静止 观察 者 搜索 静止 三 维 
物体 (可 利用 信息 为 影像 结构 )， 和 运动 观察 者 搜 
索 静 止 三 维 物体 (可 利用 信息 为 影像 结构 和 全 局 
光 流 ) 两 种 情况 。 根 据 研究 一 的 行为 数据 , 我们 将 
探索 真实 环境 下 动 、 静 态 视觉 信息 对 搜索 三 维 物 
体 的 影响 , 了解 搜 索 三 维 物 体 的 行为 规律 。 再 根 
据 Pan, Bingham 和 Bingham (2013, 2017) 的 “有 具 身 
记忆 模型 理论， 比较 基于 平面 结构 的 搜索 和 真 
实 环境 下 三 维 物体 的 搜索 的 异同 ， 以 验证 传统 平 
面 搜索 研究 得 出 的 理论 是 否 适用 于 搜索 三 维 物 
体 。 该 研究 的 结果 一 方面 可 以 说 明光 流 对 视觉 搜 
索 所 起 的 作用 ， 弥 补 之 前 理论 模型 中 的 缺失 。 另 
一 方面 也 能 说 明 ， 影像 结构 可 以 保存 光 流 标示 的 
物体 或 事件 ,使 搜索 具备 持久 性 。 

其 次 , 研究 二 将 设计 两 个 任务 : 静止 观察 者 
搜索 运动 三 维 物 体 ， 即 事件 (可 利用 信息 为 影像 结 
构 和 局 部 光 流 ); 运动 观察 者 搜索 事件 (可 利用 信 


息 为 影像 结构 和 全 局 及 局 部 光 流 )， 结合 生物 运 动 
范式 ， 验 证 真实 环境 下 动 、 静 态 视 觉 信息 在 事件 
搜索 中 的 作用 。 我 们 验证 光 流 对 运动 特征 及 其 背 
后 的 力学 性 质 的 标示 能 否 是 观察 者 区 分 事件 ， 并 
通过 与 影像 信息 的 结合 ,实现 准 确 、 持 久 的 视觉 
搜索 ; 此 外 ,在 加 入 不 同 扰 动 (如 ,视角 变化 ， 迹 
掩 等 ) 之 后 ， 可 以 探究 光 流 信息 对 事件 标示 的 抗 变 
换 性 。 最 后 ,我们 将 在 虚拟 仿真 环境 下 提供 静态 
影像 结构 和 光 流 信息 ， 以 获知 在 复杂 场景 中 的 搜 
索 过 程 和 规律 。 
最 后 ,在 前 两 个 研究 的 基础 上 ,我 们 将 在 研 
究 三 中 找 出 能 够 有 效 提高 视觉 搜索 效率 的 训练 方 
法 。 其 中 , 第 一 个 实验 验证 在 虚拟 现实 场景 中 重 
复 练习 视觉 搜索 能 否 提 高 搜索 效率 ; 第 二 个 实验 
强调 对 影像 结构 和 光 流 信息 的 提取 及 整合 能 力 的 
训练 , 通过 练习 搜索 运动 的 三 维 搜索 对 象 ， 检验 
训练 能 否 提 高 在 虚拟 仿真 场景 中 复杂 搜索 任务 的 
表现 。 第 三 个 实验 则 采用 的 传统 视觉 搜索 范式 ， 
通过 练习 对 平面 图 形 或 符号 的 搜索 ,检验 训练 能 
和 否 提高 在 虚拟 仿真 场景 中 复杂 搜索 任务 的 表现 。 
如 果实 验 二 和 实验 三 的 训练 效果 存在 差异 ， 则 间 
接 说 明 传 统 的 视觉 搜索 范式 不 能 完全 代表 三 维 环 
境 中 的 视觉 搜索 行为 。 

综 上 所 述 ,本 研究 将 使 用 多 种 研究 技术 和 手 
Be, 系统 梳理 影像 结构 和 交流 信息 在 搜索 中 的 作 
用 ,探究 动 、 静 态 视 觉 信息 对 搜索 产生 的 自 下 而 
上 的 影响 ,完善 基于 视觉 信息 和 注意 指引 的 搜索 
模型 。 在 本 研究 基础 上 ， 后 续 研 究 可 深入 发 掘 观 
察 者 自身 运动 产生 的 视觉 、 本 体 觉 、 运 动 觉 等 信 
息 对 搜索 任务 造成 的 自 上 而 下 的 影响 ， 进 而 完善 
具有 高 生态 效 度 的 视觉 搜索 理论 体系 。 例 如 ,， 寻 
疯 (foraging) 任 务 被 认为 是 近似 于 视觉 搜索 的 一 种 
自然 任务 。 在 寻觅 任务 中 ,观察 者 可 以 移动 身体 
反复 查看 并 找 出 目标 (Ehinger & Wolfe, 2016; 
Wolfe, Cain, Ehinger, & Drew, 2015)， 此 时 运动 相 
关 信 息 与 高 级 认 知 功能 (注意 、 记 忆 等 ) 交 互 就 显得 
格外 重要 了 。 男 一 方面 ,生态 知觉 理论 并 没有 区 
分 生物 运动 和 非 生 物 运 动 , 它们 都 是 事件 ， 都 可 
以 通过 捕捉 动态 轨迹 形态 信息 识别 。 但 是 我 们 目 
前 规划 的 视觉 搜索 实验 仅 使 用 了 生物 运动 作为 搜 
索 对 象 。 后 续 研究 可 将 搜索 对 象 扩展 到 其 他 类 型 
的 事件 ， 从 而 验证 通过 动态 视觉 信息 搜索 事件 这 
一 理论 的 普遍 性 。 
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Visual search in real world: The role of dynamic 
and static optical information 


PAN Jing; ZHANG Huiyuan; CHEN Donghao; XU Hongge 
(Department of Psychology, Sun Yat-sen University, Guangzhou 51006, China) 


Abstract: Visual search is a ubiquitous task and a critical skill for men and animals. Existing studies on 
visual search mainly focus on attentional guidance and the top-down cognitive influences on search 
effectiveness. The bottom-up influence on visual search is, rather crudely, simplified as objects’ image 
saliency. However, when searching in real world, where the observer and/or objects move, both static image 
information (the saliency of which has been considered in existing search models) and dynamic optic flow 
information are available. Optic flow is generated by the relative motions between an observer and world 
objects. So by detecting flow patterns, observers get to know the kinematic properties of events (which is 
defined as objects in motion) and hence perceive the physical properties of constituent objects, such as the 
mass, size and frictional coefficient etc.. These physical properties distinguish objects and allow the 
observer to search for a particular one. We integrate dynamical perceptual information (i.e. optic flow) into 
existing search models and in two studies, we test how combined dynamical and static perceptional 
information affect visual search for three-dimensional objects and for moving people, when the observer is 
stationary or moving. Furthermore, we attempt to develop a training protocol that improves search 
effectiveness in real world. Findings from this project will bring forth new theories for understanding visual 
search in real world, and have direct applications on personnel training and intelligent search designs. 


Key words: visual search; optical flow; biological motion; ecological theory of perception 


